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摘 要 : [目的 /意义 ] 大 数据 政策 的 制定 与 实施 是 国家 推动 大 数据 产业 发 展 的 重要 手段 ,因此 对 大 数据 的 政策 研究 也 受到 


了 社会 广泛 关注 。 
区 发 布 的 大 数据 政策 文本 进行 比较 研究 。| 结果 / 


[方法 “过程 ] 以 文本 相似 度 为 视角 对 国务 院 发 布 的 《促进 大 数据 发 展 行动 纲要 》 和 我 国 22 个 地 
结论 ] 数 据 表 明 : 广 东 省 、 福 建 省 所 制定 的 政策 最 为 完整 和 全 面 ， 


数据 开放 共享 和 安全 保障 在 各 地 区 大 数据 政策 制定 层面 整体 关注 最 高 ,呈现 出 相似 性 ,在 内 蒙古 自治 区 、 四 川 省 


等 地 区 大 数据 政策 制定 中 区 域 特 色 较 为 突出 ,呈现 出 差异 性 。 随 着 各 地 区 相继 颁布 人 工 箱 


Te 能 视 域 下 大 数据 政策 的 研究 将 成 为 新 方向 。 
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9 能 政策 ,未 来 对 人 工 知 


政策 文本 计算 


< 世纪 初 ,在 Michchael Laver 等 提出 政策 文本 计 
作风 是 木 概念 后 后 ,大 量 的 计算 机 科学 理论 与 方法 开始 
用 于 海量 文本 挖掘 和 文本 计算 分 析 , 政 策 文本 计 
多 出发点 是 对 政策 文本 的 自然 请 计 处 理 ” ,而 文本 
杜 似 度 计算 是 政策 文本 计算 中 重要 研究 方法 之 一 。 随 
护 术 的 进步 ,文本 相似 度 计算 的 精确 度 也 在 不 断 提 
> 和 盾 被 广泛 应 用 于 文献 查 重 、 智 能 机 器 问答 ,文本 知 
能 中 类 等 领域 ,对 文献 调研 发 现 ,目前 少 有 研究 者 将 其 
用 引 政 策 比较 研究 中 。 自 2015 年 8 月 31 日 国务 院 发 
布 (促进 大 数据 发 展 行动 纲要 》( 以 下 简称 《纲要 》) 以 
来 ,国家 各 部 委 、 各 地 区 基于 《纲要 》 内 容 先后 出 台 了 
一 系列 政策 来 推动 大 数据 产业 的 发 展 。 虽 然 大 数据 政 
策 制定 的 总 体 目 标 相同 ,但 由 于 区 域 特色 不 同 ,各 地 区 
所 出 台 的 政策 差异 较 大 ,因此 对 国家 与 各 地 区 间 大 数 
据 政 策 的 比较 研究 显得 尤为 重要 ,研究 不 但 可 以 通过 
政策 间 的 相似 性 探寻 重点 关注 内 容 ,还 可 以 通过 政策 
间 的 差异 性 探寻 区 域 发 展 特色 。 目 前 定性 政策 研究 方 
法 存在 效率 较 低 及 主观 性 较 强 的 问题 ,因此 ,本 文 以 文 
本 相似 度 为 视角 对 我 国 大 数据 政策 进行 比较 研究 ,以 
实现 对 不 同 地 区 间 政 策 文本 科学 化 分 析 , 进 而 实现 为 


政府 决策 提供 支持 的 目标 。 
1 文献 综述 


目前 ,国内 外 学 界 形成 了 一 系列 大 数据 政策 比较 
研究 的 成 果 ,在 国内 ,2014 年 , 张 勇 进 等 ”通过 对 国外 
政府 大 数据 政策 的 调研 ,从 3 个 层面 比较 分 析 发 达 国 
家 大 数据 政策 ,并 总 结 了 其 共性 特点 ,最 终 形成 大 数据 
政策 比较 研究 框架 。2017 年 , 汤 志 伟 等 ”基于 工具 维 
度 和 评价 维度 对 中 美 开放 政府 数据 政策 进行 比较 人 研 
究 。2017 年 , 王 本 刚 和 马 海 群 ” 对 西方 发 达 国家 的 开 
放 数 据 政策 进行 比较 研究 ,基于 对 国外 政策 的 研究 , 提 
出 我 国政 府 开放 数据 政策 应 坚持 的 原则 和 需要 采取 的 
措施 。2019 年 , 赵 远 ”利用 内 容 分 析 法 和 比较 研究 
法 ,从 政策 工具 和 政策 目标 两 个 维度 对 我 国 大 数据 发 
展 指数 靠 前 的 省 市 进行 比较 分 析 。 在 国外 ,2014 年 ， 
A. Zuiderwijk 等 中 提出 开放 数据 政策 框架 应 包括 环境 
因素 .政策 内 容 绩效 指标 和 公共 价值 ,并 以 荷兰 政府 
为 例 比 较 了 开放 政府 数据 政策 之 间 的 相似 和 差异 之 
处 。2016 年 ,E. Chatzinikolaou 等 中 对 希腊 生命 观察 研 
究 基 础 设施 (简称 LWG HRI) 数据 政策 背后 的 基本 原 
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理 \ 共 享 研 究 数据 当前 的 法 律 情况 数据 所 有 者 /提供 
商 与 LWG RI a dn 
描述 ,并 进行 综合 分 析 。2019 年 ,D. Tatiana-Camelials 
提出 基于 实证 的 政策 制定 ,证 实 了 该 方法 在 政策 比较 
研究 中 起 到 了 十 分 重要 的 作用 。 

综 上 所 述 ,在 国内 外 对 数据 政策 的 研究 成 果 中 , 尚 
无 学 者 从 文本 相似 度 视 角 对 大 数据 政策 进行 比较 研 
究 。 因 此 ,本 文通 过 计算 《4 纲要》 与 地 方 省 级 政府 发 布 
的 大 数据 政策 文本 相似 度 的 数值 ,对 国家 与 各 地 区 大 
数据 政策 的 相似 性 和 差异 性 进行 比较 分 析 , 并 最 终 提 
出 我 国 大 数据 产业 发 展 的 政策 建议 。 


2 研究 方法 


二 文本 相似 度 计算 在 不 同 领域 中 发 挥 着 重要 作用 并 
之 记 汉 应 用 ,由 于 其 应 用 场景 不 同 ,内 少 和 计算 方法 也 
OD 。D. Lin 中 从 信息 论 的 角度 阐明 文本 相似 度 
上 半 性 和 差异 关系 ,共性 越 大 .差异 越 小 ， 则 相似 度 越 
蕊 于 性 越 小 .差异 越 大 , 则 相似 度 越 低 ;通过 以 上 理论 
瑟 凡 假定 政策 文本 间 相 似 度 值 越 高 , 则 共性 越 大 。 基 
沐 陨 二 静 等 5 、 黄 文彬 等 、 李 琳 等 "对 文本 相似 度 
计生 方法 的 综述 可 知 ,文本 相似 度 计算 较为 常用 的 是 
词 左 模型 和 词 向 量 模型 , 词 袋 模型 用 于 规范 性 文本 . 短 
总 条 效果 较 好 ,而 词 向 量 模型 适用 于 对 大 规模 文本 的 
分 探 。 经 过 分 析 , 本 文 研究 对 象 具 有 以 下 特点 :四 政策 
讶 装具 有 语言 精炼 .规范 ,严谨 等 特点 。 回 研究 的 政策 
文 染 数 据 集 较 小 。 @ 研 究 对 象 都 属于 大 数据 政策 ,其 
中 特征 词 较为 一 致 。@ 计 算 对 象 为 短文 本 。 基 于 以 上 
因 萎 ,在 借鉴 背 视 等 对 TFIDF 模型 .LSA 模型 .LDA 
模型 和 Doc2Vec 模型 的 对 比分 析 的 基础 上 ,选取 
Doc2Bow 与 TF-IDF 相 结 合 方法 对 政策 文本 相似 度 进 
行 计算 。 
2.1 文本 组 织 结构 

政策 文本 从 组 织 结构 上 是 由 文本 
成 ,如 图 1 所 示 : 


看 句 、 词 语 构 


语 旬 b， | 语句 包 ， 


词语 4 “| 词语 4 词语 i。 |…| 词语 i 


图 1 文本 组 织 结构 的 树 状 层次 
文本 集合 DD 为 :D 一 dd 区 为 文本 的 数 


里 o 


设 d; 为 文本 集 D 的 一 个 文本 ,。b; 为 文本 d; 中 的 语 
句 ,t; 为 语句 4, 中 的 词语 ,文本 d; 和 语句 5, 可 用 如 下 
形式 描述 : 


d;,= |d;,0,d;,1,*,d,,j, ,di,n—1)| (1) 
d,= (0b,,b,,.,b,,.,b,) (a) 

b= ,bt ) (3) 

其 中 表示 文本 d， 中 语 ee 表示 语句 避 ， 


中 词语 的 数量 。 
2.2 文本 相似 度 计 算 过 程 


假设 任意 两 个 文本 di \d, ,分 别 表示 为 公式 (4) 和 
公式 (5): 

BO Cb De Dd) (4) 

9 Sb bs Dd) (5) 


m 和 nn 分 别 为 文本 中 语句 的 数量 。 将 文本 中 的 语 
句 视 为 短文 本 ,重点 对 语句 间 的 相似 度 进 行 计算 。 设 
dy 为 di\d; 的 相似 度 和 矩阵 , 则 di, 可 表示 如 下 : 


bby buby bub,, 

di, =d xd 一 人 be 机 ， (6) 
bb bb»y 1 bby, 

取 公式 (6) 中 任意 一 项 ,如 bb 来 分 析 , 具 体 实现 


步骤 如 下 : 
第 一 步 :对 所 要 分 析 的 政策 文本 按 语句 拆 分 并 分 
词 , 见 公式 (7) 和 公式 (8)。 
第 二 步 : 将 分 词 后 的 短文 本 利用 doc2bow 方法 转 
换 为 稀 玻 向 量 。 
第 三 步 : 利 用 TF-IDF 模型 将 政策 文本 进行 处 理 得 
到 TF-IDF 值 。 
第 四 步 :通过 所 计算 TF-IDF 值 ,利用 余弦 相似 度 
计算 语句 相似 性 。 
bi = (让 (7) 
b», = (pu,p1 ,Dis Din) (8) 
其 中 ,pis 分别 是 上 述 语 句 词 向 量 ,用 其 夹 角 余 
发 值 来 表示 距离 ,计算 两 个 向 量 的 余 改 值 来 表示 两 个 
语句 相似 度 距离 ” , 取 值 范围 从 0 到 1 之 间 , 数 值 越 
大 , 则 相似 度 越 高 。 从 而 得 出 其 语句 相似 度数 值 , 见 公 
式 (9)。 


bi * b, 
上 6 el 


similarity = cos (让 ，0， ) = 


第 ， 通 
之 > tp 
ed 


i E 
2 /tt 2 
lin Oy Pi 


(9) 
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3 研究 过 程 


本 文 的 主要 研究 对 象 有 两 类 :一 是 《纲要 》, 该 文 
件 是 国务 院 发 布 大 数据 产业 布局 的 战略 性 政策 ,是 目 
前 促进 大 数据 发 展 第 一 份 权威 性 、 系 统 性 文件 《 纲 
要 》 中 提 到 了 三 大 主要 任务 和 十 项 工程 ,三 大 主要 任务 
是 大 数据 政策 执行 的 核心 部 分 ,也 是 各 地 区 制定 大 数 
据 政策 的 重要 参考 , 主要 包括 :中 任务 1: 加 快 政府 数 
据 开放 共享 ,推动 资源 整合 ,提升 治理 能 力 ( 以 下 简称 


政策 文本 采集 确定 采集 对 象 
文本 预 处 理 提取 新 间 
BD : 
= : 相似 度 计算 j Gensim 中 doc2bow 
| 方法 
0 os 
© oa 
©O : i 
es 。 ”| 以 主要 任务 为 基础 形成 
性 形成 政策 框架 政策 答 架 
©O i 
CD 
CN ;政策 比较 研究 相似 性 比较 研究 
©O a 
AN 
加 图 
Nes 
> 


3 政策 文本 采集 
三 确 定 采集 对 象 是 政策 研究 的 初始 环节 ,把 所 研究 
的 政策 通过 人 工 采 集 的 方式 录入 到 自 建 语料库 “中 
来 将 政策 文本 信息 分 为 三 部 分 进行 存储 :元 信息 : 
主要 记录 发 布 时 间 发布 机 构 、 有 效 时 间 、 政 策 类 别 等 
字段 ;加 内容 信息 :以 *. txt 文本 文档 (UTF -8 格式 ) 
的 形式 存储 在 服务 器 中 ;@ 语 句 片 段 信息 :数据 库 中 会 
按 句 子 划 分 进行 语句 单元 存储 。 
3.2 ”文本 预 处 理 

利用 中 国 科 学 院 ICTCLAS" 中 的 新 词 提 取 功 能 
对 政策 文本 进行 关键 词 获 取 , 结 合 自 建 语料库 中 原 有 
政策 词 表 , 形 成 334 条 政策 词语 并 导入 ,通过 Python 语 
言 中 的 jieba 工具 对 文本 进行 分 词 .去 停 用 词 等 预 处 理 
操作 ,将 文本 数据 转换 为 可 分 析 处 理 的 初始 格式 。 由 
于 超 短 语句 (分 词 后 字符 小 于 5 的 语句 ) 对 所 计算 的 结 
果 影 响 较 大 ,因此 需要 去 除 此 类 无 效 语句 。 文 本 预 处 
理 是 相似 度 计 算 最 重要 的 环节 之 一 ,最 终 计算 结果 的 
精准 度 与 该 过 程 密切 相关 。 


na 


导 人 政策 词 表 


计算 TF-IDF 词语 关联 度 
数值 


将 相似 度数 值 进 行 填充 
差异 性 比较 研究 


数据 开放 ) ;@ 任 务 2 :推动 产业 创新 发 展 ,培育 新 兴 ， 
态 ,助力 经 济 转型 (以 下 简称 创新 发 展 ) ;加 任务 3 : 强 
化 安全 保障 ,提高 管理 水 平 ,促进 健康 发 展 ( 以 下 简称 
安全 保障 )。 因 此 ,本 文 将 此 部 分 内 容 提 取 并 形成 框 
架 ,把 其 作为 比较 对 象 。 二 是 2013 - 2019 年 我 国 22 
个 地 区 发 布 的 省 级 政府 层面 大 数据 行动 计划 或 实施 方 
案 , 将 这 些 政策 文件 作为 被 比较 研究 对 象 。 现 对 整个 
研究 过 程 分 解 如 图 2 所 示 : 


存储 元 数据 及 文本 信息 


存储 语句 片段 


中 文 分 词 、 去 停 用 词 等 


去 除 超 短 语句 : 


语句 相似 度 计算 提取 语句 相似 度 最 大 值 | : 


寻找 相似 度 最 高 语句 


综合 比较 研究 


图 2 基于 文本 相似 度 的 政策 比较 研究 过 程 


3.3 ”相似 度 计算 

本 文 将 政策 文本 按 语句 片段 划分 为 短文 本 , 共 分 
为 5 678 条 语句 ,总 计 338 122 字符 数 ,将 其 作为 比较 
研究 对 象 ,利用 Python 语言 Gensim 工具 中 的 BOW 模 
型 和 TF-IDF 模型 ,按照 2.2 小 节 中 的 文本 相似 度 计 
算 方法 ,对 《纲要 》 中 三 大 任务 与 各 地 区 大 数据 政策 文 
本 进行 语句 相似 度 计算 。 从 语句 层面 看 ,相似 度数 值 
越 高 , 则 政策 间 的 共性 越 大 。 
3.4 ”生成 政策 框架 

抽取 《纲要 》 中 三 大 任务 形成 大 数据 产业 发 展 任 
务 一 级 指标 ,每 部 分 任务 的 具体 内 容 作为 二 级 指标 , 由 
于 在 文本 预 处 理 过 程 中 已 经 去 除 无 实际 意义 词语 及 语 
句 , 因 此 待 分 析 的 政策 文本 语句 都 具有 实际 意义 ,并 具 
有 可 比 性 ,本 文 提取 相似 度 最 高 的 语句 作为 待 分 析 样 
本 ,将 语句 中 最 大 相似 度数 值 填充 到 框架 中 来 。 
3.5 政策 比较 研究 

计算 结果 在 一 定 程 度 上 可 以 反映 出 《纲要 》 中 三 
大 任务 与 各 地 区 大 数据 政策 文本 相似 性 和 差异 性 。 再 
结合 各 地 区 实际 情况 ,对 大 数据 政策 进行 综合 比较 研 
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究 ,最 终 提 出 大 数据 发 展 科 学 化 的 政策 建议 。 
4 ”实证 研究 


对 我 国 22 个 地 区 大 数据 政策 发 布 时 间 分 析 可 知 
( 见 表 1) ,重庆 市 和 贵州 省 大 数据 政策 制定 时 间 较 早 ， 
分 别 在 2013 年 和 2014 年 出 台 了 《重庆 市 大 数据 行动 
计划 》 和 《贵州 省 大 数据 产业 发 展 应 用 规划 纲要 (2014 
-2020 年 )》, 也 正 是 因为 这 些 地 区 大 数据 政策 的 先 
行 ,推动 了 《纲要 》 的 出 台 。 在 《纲要 》 颁 布 后 ,贵州 省 
在 2016 年 1 月 通过 了 《贵州 省 大 数据 发 展 应 用 促进 条 
例 》, 这 是 《纲要 》 颁布 后 我 国 首 部 大 数据 地 方 性 法 规 ， 
该 条 例 不 仅 体现 出 贵州 省 奋力 开创 大 数据 产业 发 展 新 
局 面 的 决心 ,还 对 各 地 区 大 数据 政策 出 台 起 到 了 重要 
的 雅 进 作 用 。 在 随后 2016 年 到 2019 年 ,各 地 区 根 
气 了 6 岗 要 ) 中 三 大 任务 结合 本 地 区 的 实际 情况 陆续 出 
给 大 数据 实施 方案 或 行动 计划 ,这 些 政策 是 各 地 区 
推进 大 数据 产业 发 展 的 引领 性 文件 ,在 对 大 数据 产业 
阁 晤 研究 上 具有 代表 性 。 
ET 各 地 区 省 级 政府 大 数据 政策 文本 ( 按 发 表 时 间 排 序 ) 


加 


加 六 | 重庆 。 重庆 市 大 数据 行动 计划 


各 贵州 。 贵州 省 大 数据 产业 发 展 应 用 规划 纲要 (2014 -2020 年 ) 
2016= 。 贵州 贵州 省 大 数据 发 展 应 用 促进 条 个 


— 


2076 ”北京 北京 市 大 数据 和 云 计算 发 展 行动 计划 (2016 -2020 年 
交合 上海 上海 市 大 数据 发 展 实施 意见 


Bul 广东 广东 省 促进 大 数据 发 展 行动 计划 (2016 -2020 年 ) 
201@ 广西 ”广西 壮族 自治 区 促进 大 数据 发 展 行动 方案 
2076 山东 ”山东 省 人 民政 府 关于 促进 大 数据 发 展 的 意见 


20f@) 浙江。 浙江 省 促进 大 数据 发 展 实施 计划 
江苏 省 大 数据 发 展 行动 计划 
2016 ”湖北 ”湖北 省 大 数据 发 展 行动 计划 (2016 -2020 年 ) 
2016 ”福建 。 福建 省 促进 大 数据 发 展 实施 方案 (2016 -2020 年 ) 
2016 ”海南 。 海南 省 促进 大 数据 发 展 实施 方案 

2017 山西 山西 省 大 数据 发 展 规划 (2017 -2020 年 ) 

2017 ”云南 。 关于 重点 行业 和 领域 大 数据 开放 开发 工作 的 指导 意见 
2017 ”江西 ”江西 省 大 数据 发 展 行动 计划 

2017 ”内 蒙古 ”内 蒙古 自治 区 大 数据 发 展 总 体 规划 (2017 -2020 年 ) 
2018 ”河南 。 河南 省 大 数据 产业 发 展 三 年 行动 计划 (2018 -2020 年 ) 
2018 ”河北 ”河北 省 大 数据 产业 创新 发 展 三 年 行动 计划 (2018 -2020 年 
2018 四 川 ”四川 省 促进 大 数据 发 展 工作 方案 

天 津 市 促进 大 数据 发 展 应 用 条 例 

2019 ”湖南 ”湖南 省 大 数据 产业 发 展 三 年 行动 计划 (2019 -2021 年 ) 
2019 ”黑龙 江 “数字 龙 江 "发 展 规划 (2019 -2025 年 ) 


4.1 基于 《纲要 》 三 大 任务 的 政策 比较 分 析 
《纲要 》 是 指导 我 国 大 数据 产业 发 展 的 顶层 设计 ， 


其 中 三 大 任务 是 大 数据 产业 从 理论 研究 走向 实际 应 用 
的 关键 部 分 ,把 4 纲要 》 三 大 任务 中 的 具体 内 容 作为 参 
照 ,与 各 地 区 大 数据 政策 文本 作 比 较 分 析 有 利于 挖掘 
大 数据 产业 发 展 过 程 中 的 重点 任务 及 区 域 特色 上 ,对 
三 大 任务 中 具体 内 容 分 析 如 下 。 

4.1.1 数据 开放 

任务 1 :数据 开放 过 程 中 主要 涉及 到 数据 共享 、 数 
据 资源 开放 基础 设施 建设 .宏观 调控 .政府 治理 、 商 事 
服务 .安全 保障 .民生 服务 八 项 具体 内 容 。 结 合 表 2 对 
部 分 具体 内 容 进 行 分 析 。 

(1) 数 据 资源 开放 。 在 该 部 分 中 强调 要 在 依法 加 
强 安全 保障 和 隐私 保护 的 前 提 下 ,稳步 推动 公共 数据 
资源 开放 。 此 部 分 数值 范围 是 (0.402 8 -0.922 1) ,其 
中 广东 地 区 最 为 突出 ,数值 为 0.922 1 ,广东 省 在 2016 
年 印发 《广东 省 促进 大 数据 发 展 行动 计划 (2016 -2020 
年 )》 的 通知 中 明确 提出 在 依法 加 强 数据 安全 保障 和 
隐私 保护 的 前 提 下 ,开展 公共 数据 资源 开放 应 用 并 制 
定 政府 数据 资源 开放 的 计划 、 目 录 和 标准 规范 及 安全 
保护 准则 ,建设 全 省 政府 数据 统一 开放 平台 ,统筹 管理 
可 开放 的 政府 数据 资源 ,提供 面向 公众 的 政府 数据 服 
务 。 数 据 分 析 显 示 : 北 京 贵州 江苏 等 地 区 数值 较 高 ， 
分 别 为 0.865 0 .0. 861 1 .0.832 9, 这 些 地 区 的 政策 中 
数据 资源 开放 层面 提 及 较为 明确 。 由 于 政府 数据 开放 
是 推动 大 数据 产业 发 展 的 基础 ,因此 在 各 地 区 政策 制 
定 中 都 占 重要 位 置 。 

(2) 基 础 设施 建设 。 强 调 要 结合 国家 政务 信息 化 
工程 建设 规划 ,统筹 政务 数据 资源 和 社会 数据 资源 , 布 
局 国家 大 数据 平台 .数据 中 心 等 基础 设施 。 此 部 分 数 
值 范围 是 (0.307 8 -1) ,福建 地 区 数值 最 高 ,为 1,2016 
年 福建 省 印发 的 《福建 省 促进 大 数据 发 展 实施 方案 
(2016 -2020 年 )》 通 知 中 明确 提出 加 快 构建 省 市 两 级 
基础 平台 建设 及 推动 国民 经 济 动员 大 数据 应 用 ,对 两 
项 政策 内 容 对 比 发 现 ,该 项 内 容 有 一 部 分 完全 吻合 。 
数据 分 析 显 示 : 四 川 \ 广 东 等 地 区 数值 较 高 ,分 别 为 
0.821 6.0.795 2 ,这些 地 区 在 政策 制定 过 程 中 对 基础 
设施 建设 也 比较 关注 。 很 多 地 区 把 统筹 政务 数据 资源 
和 社会 数据 资源 ,布局 区 域 大 数据 平台 .数据 中 心 等 基 
础 设施 作为 区 域 建设 的 重点 。 

(3 ) 商 事 服务 。 在 该 部 分 中 强调 要 鼓励 政府 部 门 
高 效 采集 、 有 效 整合 并 充分 运用 政府 数据 和 社会 数据 ， 
掌握 企业 需求 ,推动 行政 管理 流程 优化 再 造 ,在 注册 登 
记 . 市 场 准 入 等 商事 服务 中 提供 更 加 便捷 有 效 、 更 有 针 
对 性 的 服务 。 此 部 分 数值 范围 是 (0.275 3 -1) ， 江 苏 
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表 2 数据 开放 相似 度数 值 对 比 


任务 1: 加 快 政府 数据 


放 共享 ,推动 资源 整合 ,提升 治理 能 力 


年 份 ”地 区 八 项 具体 内 容 
数据 共享 数据 资源 开放 基础 设施 建设 宏观 调控 政府 治理 商事 服务 安全 保障 民生 服务 
2013 ”重庆 0.2120 0.755 3 0.637 2 0.222 5 0.226 1 0.345 8 0.219 0 0.265 3 
2014 ”贵州 0.359 9 0.861 1 0.435 3 0.277 2 0.419 8 0.423 5 0.212 0 0.283 6 
2016 ”北京 0.443 4 0.865 0 0.496 6 0.268 4 0.7409 0.6102 0.540 2 0.309 0 
2016 上 海 0.327 8 0.539 9 0.450 0 0.224 8 0.495 6 0.361 8 0.233 2 0.502 8 
2016 ”广东 0.371 9 0.922 1 0.795 2 0.659 3 0.685 8 0.985 1 0.734 5 0.629 6 
2016 ”广西 0.640 0 0.622 8 0.538 3 0.513 0 0.358 1 0.607 2 0.414 8 0.570 0 
2016 山东 0.362 3 0.699 3 0.566 0 0.232 4 0.409 0 0.497 8 0.438 4 0.280 6 
2016 浙 Y 0.419 8 0.716 3 0.573 9 0.464 3 0.456 7 0.563 1 0.654 6 0.406 5 
2016 ”江苏 0.430 5 0.832 9 0.614 1 0.302 9 0.310 5 1.000 0 0.196 1 0.441 5 
2016 湖 j 0.481 5 0.761 4 0.597 1 0.635 5 0.475 3 0.533 1 0.298 6 0.554 0 
2016 ”福建 0.316 0 0.593 0 1.0000 0.581 3 0.703 2 0.4917 0.281 0 0.466 6 
20 南 0.466 1 0.7369 0.5246 0.488 0 0.3876 0.650 2 0.208 6 0.323 9 
0 山西 0.594 1 0.799 5 0.553 9 0.513 0 0.485 1 0.456 6 0.343 2 0.378 2 
云南 0.2716 0.6746 0.327 4 0.1955 0.203 5 0.275 6 0.438 4 0.289 6 
md 江西 0.3767 0.425 9 0.370 7 0.299 7 0.638 3 0.564 3 0.303 1 0.258 0 
人 六 内 蒙古 0.649 4 0.703 6 0.514 4 0.4040 0.4770 0.473 8 0.372 5 0.305 2 
2018 河南 0.3440 0.402 8 0.307 8 0.199 0 0.274 9 0.458 7 0.227 3 0.282 7 
EE 河 0.295 0 0.542 2 0.4017 0.268 1 0.481 6 0.423 5 0.626 1 0.283 9 
gon 四 川 0.4169 0.548 6 0.8216 0.456 0 0.442 4 0.5317 0.282 2 0.3840 
ee 天 津 0.319 0 0.620 7 0.333 3 0.230 4 0.255 1 0.490 3 0.209 5 0.6067 
Co 湖南 0.459 8 0.405 1 0.371 3 0.222 5 0.320 7 0.275 3 0.285 4 0.223 6 
60Y 黑龙 江 0.433 2 0.481 5 0.438 8 0.304 3 0.4340 0.5306 0.363 5 0.530 8 
~ 罗 值 0.408 7 0.659 6 0.530 4 0.361 9 0.440 1 0.525 0 0.358 3 0.389 8 


地 性 数值 最 高 ,为 1,， 在 2016 年 江苏 省 印发 《江苏 省 

疾 据 发 展 行动 计划 》 的 通知 中 所 提出 的 有 针对 性 的 
商 惠 服务 与 (纲要 》 中 推进 商事 服务 便捷 化 完全 吻合 。 
数据 分 析 显示 :广东 地 区 数值 也 较 高 ,为 0.985 1 ,除了 
江苏 省 和 广东 省 对 推进 商事 服务 便捷 化 提出 了 明确 界 
定 ,其 它 省 市 提 及 较 少 ,由 于 商事 服务 是 依托 于 区 域 经 
济 发 展 状况 ,这 两 个 地 区 数值 较 高 是 与 其 经 济 较为 发 
达 有 着 密切 的 联系 。 

(4) 安 全 保障 。 在 任务 1 中 单独 提出 了 促进 安全 
保障 高 效 化 ,在 数据 开放 共享 的 同时 ,提高 公共 安全 保 
障 能 力 ,推动 构建 智能 防 控 综合 治理 的 公共 安全 体系 
也 需要 重点 关注 。 此 部 分 数值 范围 是 (0. 196 1 - 
0.734 5) ,数值 相对 较 低 ,广东 地 区 数值 最 高 ,为 
0.734 5 ,在 广东 省 印发 的 《广东 省 促进 大 数据 发 展 行 
动 计划 (2016 -2020 年 )》 的 通知 中 提出 在 法 律 许可 和 
确保 安全 的 前 提 下 ,加强 对 社会 治理 相关 领域 数据 流 
通 ,数据 归 集 ,数据 发 气 及 关联 分 析 , 为 妥善 应 对 和 有 
效 处 置 重大 突 发 公共 事件 提供 数据 支撑 。 数 据 分 析 发 
现 :大 多 数 地 区 均 是 在 任务 3 中 进行 明确 要 求 , 而 在 任 


务 1 中 多 是 提出 总 体 性 的 安全 保障 要 求 ,因此 导致 此 
部 分 数值 较 低 。 而 广东 省 在 政策 制定 层面 非常 重视 数 
据 安全 保障 ,在 任务 1 中 提出 安全 保障 也 说 明 政 府 关注 
到 了 数据 开放 共享 与 数据 安全 保障 间 协 同性 的 问题 。 
4.1.2 创新 发 展 

任务 2: 创 新 发 展 中 主要 涉及 到 工业 大 数据 、 新 兴 
产业 大 数据 .农业 农村 大 数据 万 众 创 新 大 数据 .基础 
研究 和 核心 技术 攻关 、 大 数据 产品 体系 、 大 数据 产业 链 
七 项 具体 内 容 。 结 合 表 3 对 部 分 具体 内 容 进 行 分 析 。 

(1) 工 业 大 数据 。 在 该 部 分 中 强调 要 推动 产业 创 
新 发 展 ,培育 新 兴 产 业 , 助 力 经 济 转型 的 重要 组 成 部 
分 。 此 部 分 数值 范围 是 (0.265 0 -0.963 0) ,数值 跨度 
较 大 ,其 中 广西 和 四 川 的 数值 较 高 ,分 别 为 0.9304 和 
0.963 0,2016 年 广西 壮族 自治 区 人 民政 府 发 布 了 《 促 
进 大 数据 发 展 行动 方案 》,2018 年 四 川 省 也 发 布 了 《四 
川 省 促进 大 数据 发 展 工作 方案 》, 这 两 部 政策 文件 在 工 
业 大 数据 应 用 试点 和 打造 “互联 网 + 智能 制造 "工业 
大 数据 应 用 基地 方面 关注 较 多 。 数 据 分 析 显 示 :北京 
和 江苏 数值 也 较 高 , 分 别 为 0.847 8 和 0.786 2， 这 些 
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表 3 创新 发 展 及 安全 保障 部 分 相似 度数 值 对 比 

任务 2: 推 动产 业 创新 发 展 ,培育 新 兴业 态 , 助 力 经 济 转型 任务 3: 强 化 安全 保障 

二 庆 训 攻 七 项 具体 内 容 两 项 具体 内 容 
工业 大 新 兴 产 业 农业 农村 万 众 创新 ” 基础 研究 和 ”大 数据 产品 大 数据 安全 保障 安全 
数据 大 数据 大 数据 大 数据 ”核心 技术 攻关 体系 产业 链 体系 支撑 
2013 ”重庆 0.371 8 0.354 4 0.3039 0.2574 0.394 3 0.3025 0.768 2 0.500 0 0.385 9 
2014 ”贵州 0.388 2 0.390 2 0.411 1 0.570 8 0.383 6 0.418 5 0.647 4 0.540 8 0.275 6 
2016 北京 0.847 8 0.642 7 0.649 3 9 Bs 0.273 4 0.292 1 0.324 2 0.753 6 0.676 3 
2016 上 海 0.6255 0.7106 0.3947 0.556 9 0.405 3 0.310 2 0.449 4 0.507 6 0.429 5 
2016 广东 0.460 0 0.606 8 0.435 4 0.685 7 1.000 0 0.765 4 0.718 1 1.000 0 0.851 1 
2016 广西 0.930 4 0.399 8 0.685 0 0.671 0 0.389 9 0.309 4 0.533 4 3539 0.535 4 
2016 ”山东 村 223 W3373 0.499 3 0.426 4 0.389 9 O61l13 0.450 4 0.493 4 0.4246 
2016 ”浙江 0.463 5 0.415 4 0.734 4 0.426 4 0.389 9 0.466 1 0.6348 G25 0.5439 
2016 ”江苏 0.786 2 0.528 9 0.379 9 0.604 2 0.358 9 0.466 0 0.621 5 0.409 6 0.433 0 
2016 湖北 0.7250 0.435 6 0.681 2 0.483 9 0.389 9 和 338 3 0.495 9 0.636 5 0.562 2 
2916 福建 0.725 0 0.823 5 0.761 1 0.685 2 0.559 0 0.691 4 0.861 0 本 735 0.420 0 
205 海南 0.5330 0.372 7 0.390 3 0.685 2 0.343 8 0.278 8 0.404 0 0.503 1 0.420 0 
9 山西 0.688 7 0.5673 0.608 5 0.445 3 0.445 3 0.563 0 0.468 6 0.9666 0.7076 
加 云南 0.265 0 0.405 8 0.2960 0.2907 0.334 9 0.335 9 0.402 4 0.486 7 0.384 5 
2007 江西 772250 0.601 3 0.394 7 0.429 7 0.407 6 0.365 2 L3322 0.558 8 村 32 
1 内 蒙古 0.5657 0.491 5 0.444 4 0.500 6 0.427 3 0.498 4 0.S14 3 1.000 0 0.939 3 
2018 河南 0.625 5 过 5533 0.3199 0.465 5 0.493 2 0.427 8 0.4033 0.402 1 0.425 2 
3 河北 0.625 5 0.429 7 0.394 7 0.426 6 0.340 4 0.446 4 0.448 5 0.564 4 0.441 4 
Laf) 四 0.963 0 0.6009 0.500 4 0.541 4 QI72 0.327 4 0.8266 Hy 0.454 6 
a 天 津 0.417 5 0.409 1 0.440 7 人 337 0.297 5 0.258 4 0.377 8 0.631 4 0.441 5 
zg 湖南 0.487 6 0.549 1 0.402 3 0.5006 0.528 8 0.5264 0.479 8 0.705 4 0.441 4 
黑龙 江 0.441 9 0.487 1 0.536 9 0.484 9 0.389 9 0.387 5 0.638 4 0.627 0 0.627 4 
EE 均值 0.608 5 3052 0.484 7 0.503 4 0.430 0 0.426 7 0.5455 0.628 4 0.508 0 
地 鸯 比较 重视 工业 大 数据 产业 的 发 展 。 而 从 数据 上 看 的 鞍 勃 发 展 。 


re en ene eget 可 以 侧面 

内 不 同 地 区 大 数据 产业 发 展 定位 的 差异 性 。 

(2) 农 业 农 村 大 数据 。 在 该 部 分 中 强调 要 构建 面 
向 农业 农村 的 综合 信息 服务 体系 ,为 农民 生产 生活 提 
供 综合 高效、 便捷 的 信息 服务 ,缩小 城乡 数字 鸿沟 , 促 
进 城乡 发 展 一 体 化 。 此 部 分 数值 范围 是 (0. 296 - 
0.761 1) ,福建 和 浙江 数值 较 高 ,分 别 为 0.761 1 和 
0.734 4,2016 年 ,福建 省 发 布 了 《福建 省 促进 大 数据 发 
展 实 施 方案 (2016 - 2020 年 )》 的 通知 ,同年 ,浙江 省 也 
发 布 了 《浙江 省 促进 大 数据 发 展 实施 计划 》, 这 两 部 政 
策 法 规 都 明确 提出 了 对 加 快 农业 农村 大 数据 发 展 的 计 
划 。 数据 分 析 显示 :广西 和 湖北 数值 较 高 ,分 别 为 
685 0 和 0. 681 2 ,这 些 地 区 对 农业 农村 大 数据 产业 的 
发 展 非常 重视 ,并 且 从 政策 层面 对 农业 农村 大 数据 较 
为 关注 ,如 广西 壮族 自治 区 建设 的 智慧 农庄 信息 管理 
平台 在 农业 农村 大 数据 扶贫 大 数据 建设 上 特点 较为 
突出 ,并 初 见 成 效 , 这 切实 体现 出 区 域 特色 大 数据 产业 


(3 ) 基础 研究 和 核心 技术 攻关 。 在 该 部 分 中 强调 
要 围绕 数据 科学 理论 体系 、 大 数据 计算 系统 与 分 析 理 
论 等 重大 基础 研究 进行 前 瞻 布 局 ,开展 数据 科学 研究 ， 
引导 和 鼓励 在 大 数据 理论 方法 及 关键 应 用 技术 等 方 
面 展开 探索 。 此 部 分 数值 范围 是 (0.273 4 -1) ,广东 
的 数值 最 高 ,为 1, 在 广东 省 发 布 的 《广东 省 促进 大 数 
据 发 展 行动 计划 (2016 -2020 年 )》 中 提出 推动 大 数据 
核心 技术 攻关 和 产业 化 应 用 ,重点 突破 大 规模 数据 采 
集 和 预 处 理 。 数 据 分 析 显 示 : 其 它 地 区 的 数值 普遍 较 
低 , 在 0.27 -0.55 之 间 , 这 些 地 区 对 基础 研究 和 核心 
技术 攻关 提 及 较 少 ,上 且 关 注 度 不 高 ,这 主要 因为 有 些 地 
区 受 限 于 经 济 发 展 状 况 ,并 不 具备 大 数据 核心 技术 攻 
关 的 综合 实力 。 
(4) 大 数据 产业 链 。 在 该 部 分 中 强调 要 文 持 企业 
开展 基于 大 数据 的 第 三 方 数据 分 析 发 掘 服务 .技术 外 
包 服 务 和 知识 流程 外 包 服 务 ,鼓励 企业 根据 数据 资源 
基础 和 业务 特色 ,积极 发 展 互联 网 金融 和 移动 金融 等 
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新 业态 。 此 部 分 数值 范围 是 (0. 324 2 - 0. 861 0), 福 
建 . 四 川 .重庆 广东 这 4 个 地 区 数值 相对 较 高 ,分 别 为 
0.861 0 .0.826 6 .0.768 2 .0.718 0 ,这 些 地 区 在 政策 中 
不 同 程度 都 提 到 了 完善 大 数据 产业 链 措施 。 数 据 分 析 
显示 :其 它 地 区 的 数值 相对 较 低 (0. 32 - 0.63 ) ,对 该 浊 
分 内 容 提 及 较 少 。 由 于 在 此 部 分 中 ,多 数 地 区 在 政策 
中 对 相关 内 容 提 及 较为 宏观 , 且 特 征 词 分 散 , 导 致 文本 
相似 度数 值 较 低 。 
4.1.3 安全 保障 

任务 3 :安全 保障 中 主要 涉及 到 健全 大 数据 安全 
保障 体系 和 强化 安全 支撑 两 项 具体 内 容 ,结合 表 3 对 
具体 内 容 进 行 分 析 。 

(1) 安 全 保障 体系 。 在 该 部 分 中 强调 要 加 强大 数 
据 环境 下 的 网 络 安全 问题 研究 和 基于 大 数据 的 网 络 安 
全 和 技术 研究 ,落实 信息 安全 等 级 保护 ` 风 险 评估 等 网 络 
安全 制度 ,建立 健全 大 数据 安全 保障 体系 。 此 部 分 数 
尾 训 图 是 (0. 353 9 - 1) ,广东 、 内 蒙古 .山西 等 地 区 的 
数 盘 较 高 ,分 别 是 1、1、0.966 6, 以 上 3 个 地 区 从 政策 
层 可 凸现 了 对 安全 保障 体系 的 重点 关注 。 数 据 分 析 显 
起 束 然 人 别 上 地 区 对 健全 安全 保障 体系 提 及 较 少 ,但 整 
下 看 国家 及 各 地 区 还 是 非常 关注 大 数据 安全 问题 


(2) 安 全 支撑 。 在 该 部 分 中 对 网 络 安全 及 防护 提 
出 了 明确 要 求 ,强调 要 采用 安全 可 信 产 品 和 服务 ,提升 
基础 设施 关键 设备 安全 可 靠 水 平 。 此 部 分 数值 范围 是 
(0.275 6 -0.939 3) ,广东 、 内 蒙古 数值 较 高 ,分 别 为 
0.939 3 和 0.851 1, 其 中 广东 省 作为 大 数据 产业 的 领 
跑 省 份 , 对 数据 安全 文 撑 方面 尤为 重视 ,而 内 蒙古 自治 
区 在 2017 年 发 布 的 《内 蒙古 自治 区 大 数据 发 展 总 体 规 
划 (2017 -2020 年 )》 中 重点 强调 了 提升 大 数据 安全 保 
障 能 力 ,要 把 网 络 安全 作为 大 数据 发 展 的 重要 前 提 , 健 
全 安全 保障 体系 ,提升 技术 支撑 能 力 ,切实 保障 数据 安 
全 。 数 据 分 析 显 示 : 贵 州 的 数值 为 0.275 6 ,虽然 最 低 ， 
但 是 贵州 省 在 2019 年 出 台 的 《贵州 省 大 数据 安全 保障 
条 例 》 是 我 国 大 数据 安全 保护 省 级 层面 的 首部 地 方 性 
法 规 ,是 贵州 省 大 数据 产业 发 展 制度 保障 项 层 设计 的 
又 一 项 重要 成 果 。 健 全 大 数据 安全 保障 体系 和 强化 安 
全 支撑 是 相辅相成 的 ,数据 安全 是 数据 开放 共享 的 前 
提 条 件 , 因 此 在 大 数据 产业 发 展 过 程 中 ,强化 安全 支撑 
是 首要 任务 。 
4.2 《纲要 》 三 大 任务 间 政 策 比 较 分 析 

通过 对 《纲要 》 中 三 大 任务 在 各 地 区 相似 度 平均 
值 分 析 , 可 以 探寻 大 数据 政策 重点 内 容 及 各 地 区 政策 


的 数据 安全 是 国家 安全 的 重要 基础 ,因此 各 地 区 在 发 | 的 共性 ,按照 数值 将 其 划分 为 三 档 ,如 图 3 所 示 : 
头 数据 产业 的 同时 对 数据 安全 保障 都 极为 重视 。 
之 08 
下 昌平 均值 
‘© 第 二 档 0.6085 0.6284 
CC 由 第 上 上 档 vy we 0.5052 (4847 0.5034 ne i 0.508 0 
ee 品 9 |oa087 0.440 1 而 国 “04300 04267 看 
二 基 04 第 主 0.361L9 0.3583 0.389 8 L 
O 〇 03 
02 1 
041 
00 
人 六 你 多 六 
ER wR a 
和 村 4 EA 有 
Ee 
《 岗 要 》 三 大 任务 具体 内 容 


3 《纲要 》 三 大 任务 中 具体 内 容 相 似 度 平均 值 


第 一 档 : 数 值 在 0.6 -0.7 之 间 , 包 括 数据 资源 开 
放 0.659 6 .安全 保障 体系 0.628 4 .工业 大 数据 0.608 5。 


注 的 对 象 ,工业 是 国家 经 济 发 展 的 基础 ,工业 大 数据 创 
新 发 展 是 实现 智能 制造 的 重要 抓 手 ,因此 从 政策 制定 


数据 分 析 显 示 :这 些 内 容 在 各 地 区 政策 中 关注 度 最 高 ， 
在 大 数据 政策 制定 过 程 中 ,数据 资源 开放 共享 和 安全 
保障 体系 的 构建 长 期 以 来 都 是 政策 制定 所 需要 重点 关 


多数 地 区 比较 重视 工业 大 数据 的 发 展 。 
第 二 档 : 数 值 在 0.5 -0.6 之 间 , 包 括 基 础 设施 建 
设 0.530 4、 商 事 服务 0. 525 0、 新 兴 产 业 大 数据 


层 国 
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0.505 2 .万众 创新 大 数据 0. 503 4、 大 数据 产业 链 
0.545 5 .安全 支撑 0.508 0。 数 据 分 析 显 示 :《 纲 要 》 中 
的 部 分 内 容 相 对 较 宏观 且 有 些 任务 受 地 域 影 响 较 大 ， 
各 地 区 会 根据 区 域 特点 来 制定 大 数据 战略 ,因此 数值 
波动 较 大 ,如 在 经 济 欠 发 达 地 区 ,基础 设施 建设 较为 落 
后 ,新 兴 产 业 大 数据 的 发 展 则 相对 迟缓。 

第 三 档 :数值 在 0.3 -0.5 之 间 , 包 括 数据 共享 
0.408 7 宏观 调控 0.361 9 ,政府 治理 0.440 1 安全 保 
障 0.358 3 .民生 服务 0.389 8 .农村 大 数据 0.484 7 、 基 
础 研究 和 核心 技术 攻关 0. 430 0、 大 数据 产品 体系 
0.426 7 ,数据 分 析 显 示 : 安 全 保障 、 宏 观 调控 、 民 生 服 
务 数值 最 低 ,很 多 地 区 并 没有 在 数据 开放 共享 部 分 体 


现 数据 安全 保障 ,这 并 非 不 重视 安全 问题 ,大 多 数 地 区 
是 在 强化 安全 保障 部 分 中 对 数据 安全 做 了 明确 要 求 。 
而 宏观 调控 .民生 服务 等 任务 则 体现 了 《纲要 》 中 政策 
引领 性 .全 面 性 特点 ,虽然 在 省 级 大 数据 政策 中 对 这 些 
方面 提 及 较 少 ,但 很 多 地 区 都 单独 出 台 了 与 民生 服务 、 
政府 治理 等 相关 的 专项 大 数据 政策 。 
4.3 地 区 间 政 策 比较 分 析 
4.3.1 各 地 区 政策 平均 相似 度 比较 分 析 

《纲要 》 三 大 任务 与 各 地 区 大 数据 政策 平均 相似 
度 较 高 可 以 体现 出 大 数据 政策 制定 的 完整 性 与 全 二 
性 ,将 此 部 分 划分 为 三 档 , 如 图 4 所 示 : 
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(5(1 ) 第 一 档 :数值 在 0.6 -0.8 之 间 , 以 广东 ,福建 
最 儿 突 出 ,这 两 个 地 区 主要 特点 是 处 于 沿海 地 区 ,CDP 
洛 午 较 高 ,经 济 较为 发 达 。 广 东 省 在 2016 年 发 布 的 
《促进 大 数据 发 展 行动 计划 (2016 - 2020 年 ) 的 通知 》 
与 4 纲要 》 中 文本 相似 度 比较 数值 最 高 为 0.723 9。 广 
东 省 是 国内 率先 关注 并 推动 大 数据 的 地 区 之 一 ,作为 
工业 制造 业 强 省 ,大 数据 领域 企业 聚集 地 ,广东 省 具 
有 发 展 大 数据 产业 独特 的 优势 。 福 建 省 在 2016 年 发 
布 了 《福建 省 促进 大 数据 发 展 实施 方案 (2016 - 2020 
年 )》 的 通知 ,数值 为 0.630 3 , 仅 次 于 广东 省 ,福建 省 通 
过 加 速 “数字 福建 ”的 建设 来 抢占 数字 经 济 的 前 沿 , 依 
托 高 校 建立 的 大 数据 基础 技术 研究 基地 及 大 数据 研究 
院 , 为 区 域 大 数据 产业 发 展 提供 了 强 有 力 的 支撑 。 
(2) 第 二 档 :数值 在 0.5 -0.6 之 间 , 主 要 有 北京 、 

江苏 ,浙江 ,湖北 、 四 川 . 山 西 . 广 西 .内 蒙古 等 地 区 ,将 
这 些 地 区 分 为 两 种 情况 :根据 连 玉 明 "i《 中 国 大 数 
据 发 展 报告 ) 中 的 大 数据 发 展 总 指数 看 , 北京 .江苏 、 
浙江 等 地 区 大 数据 产业 发 展 较 好 ,但 从 数值 上 并 未 体 
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| 机 
> SR pe 2 a 


4 各 地 区 大 数据 政策 平均 相似 度数 值 


现 出 来 。@) 部 分 地 区 如 广西 .内 蒙古 四川 等 根据 区 域 
村 点 来 制定 大 数据 政策 。 广 西 壮 族 自治 区 通过 智慧 
庄 信息 管理 平台 ,使 该 地 区 在 农业 农村 大 数据 建设 层 
面 初 见 成 效 。 内 蒙古 自治 区 通过 打造 云 计算 和 大 数据 
产业 集群 ,逐步 建设 成 为 中 国 北方 大 数据 中 心 。 四 川 
省 德阳 市 通过 发 展 工业 大 数据 应 用 与 服务 ,推动 建立 
智能 制造 集群 ,形成 “互联 网 + 智能 制造 ”工业 大 数据 
应 用 基地 。 
(3) 第 三 档 :数值 在 0.3 -0.5 之 间 , 主 要 有 上 海 、 
天 津 .重庆 山东 .河北 河南 .湖南 .云南 贵州 等 地 区 ， 
根据 连 玉 明 《中 国 大 数据 发 展 报告 》 和 自 建 语料库 
中 的 政策 分 析 将 这 些 地 区 分 为 两 种 情况 :中 大 数据 产 
业 发 展 较 好 的 地 区 ,这 些 地 区 基于 《纲要 》 发 布 了 很 多 
策 
上 


大 数据 专项 政策 ,有 些 内 容 在 各 省 级 政府 大 数据 政 
中 并 没有 全 部 体现 ,因此 从 数据 层面 表现 不 足 ,如 
海 贵州. 重庆、 山东 等 地 区 。@ 大 数据 产业 发 展 相 对 
较 缓 慢 的 地 区 ,很 多 大 数据 相关 基础 设施 尚 无 法 满足 ， 
因此 无 法 从 数据 层面 体现 ,这 主要 集中 在 经 济 欠 发 达 
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地 区 。 

进一步 对 第 三 档 中 部 分 数值 较 低 的 地 区 做 如 下 分 
析 : 

贵州 地 区 平均 值 为 0.429 3 ,但 综合 分 析 贵州 省 大 
数据 产业 发 展 情况 可 知 :贵州 省 2013 年 就 走 上 了 大 数 
据 之 路 ,如 今 已 经 成 为 大 数据 时 代 的 领跑 者 ,根据 团队 
自 建 语料库 数据 统计 ,贵州 省 自 2014 年 起 发 布 省 级 政 
府 层面 的 大 数据 政策 10 部 ,各 地 市 共 发 布 大 数据 相关 
政策 70 多 部 ,是 全 国 大 数据 政策 内 容 制定 最 细致 .最 
完善 .最 丰富 的 地 区 。 本 文选 取 的 政策 是 (贵州 省 大 数 
据 产业 发 展 应 用 规划 纲要 (2014 - 2020 年 )》 ,虽然 从 
相似 度数 值 上 看 较 低 ,但 贵州 省 采取 政策 群 的 方式 来 
推动 大 数据 产业 在 该 地 区 的 发 展 ,并 收 到 了 较 好 的 效 
颈 二 如 《贵州 省 发 展 农业 大 数据 助 推脱 贫 攻 坚 3 年 行 
动 施 案 (2017 - 2019 年 )》《 贵 州 省 人 民政 府 办 公 厅 关 
入党 入 推进 政务 服务 领域 大 数据 和 人 工 智能 集成 应 用 
全 施 意 见 》 ,这些 都 是 单独 针对 《纲要 》 中 具体 任务 
进 稳 专项 部 署 的 政策 文件 。 
< 重庆 地 区 平均 值 为 0.383 6 ,由 于 重庆 市 是 全 国 制 
SR 数据 政策 最 早 的 地 区 ,要 早 于 《纲要 》 的 发 布 , 因 
紫 刘 政策 与 (纲要 》 对 比 数值 较 低 是 可 以 理解 的 ,但 这 
不 柜 表 重庆 市 大 数据 产业 发 展 速度 缓慢 。 重 庆 市 的 大 
北 户 智能 化 产业 已 经 初 具 规 模 ,建设 的 天 数据 产业 园 、 
仙 醒 数据 谷 已 形成 了 具有 国际 竞争 力 的 创新 生态 圈 ， 
六 美 市 在 政府 管理 .智能 交通 .智能 物流 等 领域 的 大 数 
着 能 化 应 用 水 平 全 国 领先 。 
-三 云 南 地 区 平均 值 为 0.345 8, 虽 然 最 低 ,但 任务 1 
中 颇 字 资源 开放 的 数值 较 高 为 0. 674 6。 云 南 省 是 一 
个 集 边 疆 、 山 区 、 贫 困 等 不 利 因素 为 一 体 的 欠 发 达 省 
份 ,因此 在 大 数据 发 展 过 程 中 更 多 关注 数字 资源 开放 
工作 ,2017 年 云南 省 人 民政 府 发 布 的 《关于 重点 行业 
和 领域 大 数据 开放 开发 工作 的 指导 意见 ) 是 省 级 层面 
的 大 数据 政策 ,该 政策 内 容 主要 以 云南 省 重点 行业 和 
领域 大 数据 的 开放 开发 工作 为 主 。 
4.3.2 《纲要 》 三 大 任务 与 各 地 政策 相似 度 比较 分 析 

通过 《纲要 》 三 大 任务 与 各 地 区 政策 相似 度 分 项 
比较 有 助 于 发 现在 地 区 间 政 策 制定 的 差异 ,进而 控 所 
大 数据 产业 发 展 的 区 域 特色 ,数据 分 析 发 现任 务 3 安 
全 保障 是 各 地 区 政策 制定 中 最 为 关注 的 内 容 , 具 体 分 
析 如 下 : 

(1) 任务 1: 数 据 开 放 中 各 地 区 平均 数值 为 
0.459 2 ,数值 最 低 , 如 图 5 所 示 , 广 东 省 此 部 分 数值 较 


子 政务 数据 中 心 和 政务 信息 资源 共享 平台 的 目标 。 其 
它 地 区 在 不 同 程度 上 提 及 到 数据 开放 共享 ,但 是 整体 
数值 较 低 的 原因 主要 是 由 于 在 宏观 调控 政府 治理 等 
方面 平均 数值 较 低 ,其 它 地 区 中 对 该 部 分 内 容 的 描述 
都 没有 广东 省 颁布 的 《广东 省 促进 大 数据 发 展 行动 计 
划 (2016 -2020 年 ) 的 通知 》 中 的 内 容 细致 ,因此 影响 
了 整体 数值 。 


相似 度数 值 
& 


图 5 任务 1 数据 开放 与 各 地 区 政策 相似 度数 值 


(2) 任 务 2: 创 新 发 展 中 各 地 区 平均 数值 为 0. 500 6， 
如 图 6 所 示 , 以 福建 (0.729 5) 广东 (0. 667 3) 最 为 突 
出 。 由 于 国家 鼓励 建设 有 区 域 特色 的 大 数据 产业 ,要 
发 挥 地 区 特色 ,因此 各 地 区 关注 点 有 所 差别 ,这 成 为 平 
均值 略 低 的 因素 之 一 ,而 构建 工业 大 数据 、 新 兴 产 业 大 
数据 ,农业 农村 大 数据 都 需要 大 数据 底层 建设 基础 , 福 
建 省 .广东 省 大 数据 基础 设施 建设 较 好 ,并 且 建 设 资金 
较 充 裕 ,在 创新 发 展 方面 可 以 投入 更 多 精力 来 推动 大 
数据 产业 在 新 兴 行 业 的 发 展 。 
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图 6 任务 2 创新 发 展 与 各 地 区 政策 相似 度数 值 


(3) 任 务 3: 安 全 保障 中 各 地 区 平均 数值 最 高 为 
0.568 2, 如 图 7 所 示 , 以 内 蒙古 (0. 969 7) 广东 
(0.925 6) .山西 (0.837 1) 最 为 突出 ,由 此 可 见 各 地 区 
在 政策 制定 过 程 中 极为 重视 数据 安全 问题 ,以 内 蒙古 
自治 区 为 例 ,作为 国家 大 数据 综合 试验 区 ,近年 来 内 蒙 


为 最 高 ,为 0.722 9, 广 东 省 明确 提出 建设 全 省 统一 电 


古 自治 区 对 大 数据 产业 发 展 尤 为 重视 ,2017 年 发 布 了 
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《内 蒙古 自治 区 大 数据 发 展 总 体 规划 (2017 - 2020 
年 )》, 其 中 数据 安全 保障 体系 与 《纲要 》 中 安全 保障 部 
分 相似 度 高 ,该 地 区 现存 大 数据 安全 平台 建设 滞后 , 数 


站 经 济 发 展 全 面 进入 城市 群 引领 时 代 后 ,拥有 广 深 
座 一 线 城市 ,在 聚集 人 才 ,资金 ,产业 的 能 力 上 ,要领 
ee 


据 开放 共享 程度 不 高 ,相关 政策 法 规 不 完善 等 问题 , 因 
此 从 政策 层面 可 以 体现 出 内 蒙古 自治 区 对 安全 保障 重 
视 程度 较 高 ,也 能 看 出 内 蒙古 自治 区 建立 世界 级 大 数 
据 中 心 的 决心 。 
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CU 7 任务 3 安全 保障 与 各 地 区 政策 相似 度数 值 
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5 中 结论 与 建议 
< 十 


本 文 以 文本 相似 度 为 视角 对 《纲要 》 中 三 大 任务 
对 位 地 区 大 数据 政策 进行 了 综合 比较 研究 ,广东 省 . 福 
建 祝 从 数值 上 看 总 体 表现 最 好 ,从 整体 情况 来 看 ,由 于 
填 访 改 府 重视 程度 较 高 ,大 数据 产业 呈现 出 发 展 迅速 
重审 任务 明确 .区 域 特色 突出 等 特点 。 不 同 地 区 的 大 
次 手 政 策 中 对 数据 资源 的 开放 和 安全 保障 体系 关注 度 
均 锋 高 ,这 体现 出 各 地 区 大 数据 政策 制定 的 相似 性 。 
图 碧 中 内 蒙古 自治 区 .四川 省 等 地 区 在 安全 保障 与 创 
新 网 展 中 数值 较 高 ,这 体现 出 不 同 地 区 大 数据 政策 制 
定 的 差异 性 。 在 所 收集 的 政策 文本 中 并 没有 辽宁 省 、 
新 疆 维吾尔 自治 区 、 西 藏 自治 区 等 地 区 的 省 级 政府 层 
面 的 大 数据 文件 。 结合 自 建 语料库 所 收集 的 语 料 发 
现 ,辽宁 省 各 地 市 大 数据 政策 文件 共 104 条 ,数量 上 在 
全 国 也 名 列 前 昔 , 沈 阳 市 .大连 市 制定 的 政策 较 多 , 结 
合 数据 分 析 可 知 ,辽宁 省 的 地 市 大 数据 规划 先行 ,而 省 
级 政府 层面 大 数据 规划 却 相对 滞后 。 基 于 以 上 结论 ， 
笔者 对 我 国 大 数据 政策 提出 建议 : 

5.1 ”提升 地 方 经 济 水 平 可 以 促进 大 数据 产业 快速 发 
展 


从 综合 数据 来 看 ,广东 省 和 福建 省 平均 值 最 高 ,以 
广东 省 最 为 突出 ,数值 为 0.723 9。 结 合 自 建 语料库 所 
收集 的 政策 文本 分 析 发 现 ,近年 来 广东 省 共 发 布 数据 
类 政策 117 条 ,在 政策 发 布 数量 上 领跑 全 国 ,广东 省 作 
为 我 国 的 经 济 强 省 ,作为 国家 改革 开放 的 窗口 ,在 中 国 


据 产业 创新 发 展 的 重要 因素 之 一 ”。 福 建 省 通过 出 
台 一 系列 大 数据 政策 来 推动 实体 经 济 与 数字 经 济 携手 

并 进 , 推 动 传统 产业 智能 升级 ,还 依托 厦门 大 学 、 福 州 
大 学 建立 大 数据 基础 技术 研究 院 , 这 些 都 为 福建 省 的 
大 数据 产业 发 展 提供 了 有 力 的 支撑 。 由 于 大 数据 基础 
设施 建设 .基础 研究 及 核心 技术 研究 会 受到 地 方 经 济 
直接 影响 ,而 它 又 是 大 数据 产业 发 展 基础 ,因此 地 方 经 
济 是 影响 大 数据 产业 发 展 的 重要 因素 。 
5.2 大 数据 开放 共享 体系 与 安全 保障 体系 建设 是 最 
重要 的 基础 工程 

数据 开放 与 安全 保障 作为 《纲要 》 中 最 重要 的 两 
大 任务 ,它们 在 各 地 区 的 落实 与 执行 情况 至 关 重 要 。 
数据 资源 开放 数值 范围 是 (0. 402 8 -0.922 1 ) ,平均 数 
值 为 0.659 6 ,安全 保障 体系 数值 范围 是 (0. 353 9 - 
1) ,平均 数值 为 0.628 4 ,这 说 明 不 同 地 区 都 把 数据 资 
源 开 放 和 安全 保障 体系 作为 最 关注 的 内 容 , 也 体现 了 
各 地 区 大 数据 政策 制定 的 相似 性 。 开 放 共 享 是 大 数据 
的 核心 价值 ,数据 共享 开放 的 程度 是 国家 数字 经 济 竞 
争 力 的 决定 要 素 , 要 加 快 建立 统一 的 大 数据 开放 共享 
标准 体系 ,整合 大 数据 资源 的 数据 标准 和 应 用 规 
则 一: 。 大 数据 开放 共享 的 同时 要 加 强 数据 安全 防护 
意识 ,在 各 地 区 大 数据 政策 中 对 数据 安全 关注 度 较 高 ， 
但 目前 尚 缺 乏 完整 的 政策 体系 来 保障 大 数据 安全 。 因 
此 大 数据 开放 共享 标准 体系 建设 和 数据 安全 保障 体系 
建设 是 国家 及 地 方 政府 最 为 重视 的 两 项 基础 工程 。 
5.3 发 挥 地 域 优 势 构建 有 特色 的 大 数据 产业 

我 国 各 地 区 大 数据 产业 发 展 不 均衡 , 受 地 域 影响 
较 大 ,如 内 蒙古 自治 区 政策 整体 平均 值 为 0.545 9, 相 
对 较 低 ,但 任务 3 安全 保障 的 数值 高 达 0. 969 7, 最 为 
突出 ,其 原因 是 内 蒙古 自治 区 全 力 建设 我 国 北方 地 区 
的 云 计算 和 大 数据 中 心 ,因此 对 于 数据 的 安全 保障 万 
为 重视 ,从 健全 大 数据 安全 保障 体系 和 提升 大 数据 安 
全 技术 支撑 能 力 两 个 方面 全 力 保障 云 计 算 和 大 数据 中 
心 的 数据 安全 。 四 川 省 数值 为 0.551 2, 但 工业 大 数据 
部 分 数值 为 0.963 0 ,表现 最 为 突出 ,四 川 省 在 政策 制 
定 中 突出 特色 ,通过 区 域 特色 来 推进 大 数据 产业 的 实 
施 , 以 德阳 市 为 例 ,该 市 通过 工业 大 数据 应 用 与 服 
务 ,推动 建立 智能 制造 集群 ,形成 “互联 网 + 智能 制 
造 " 工 业 大 数据 应 用 基地 。 贵 州 省 整体 平均 值 仅 为 
0.429 3 ,虽然 数值 较 低 ,但 贵州 省 所 发 布 大 数据 相关 
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配套 政策 较 多 , 内容 完善 日 履 盖 面 广 ,已 初 具 规模 ， 
并 形成 区 域 大 数据 政策 群 , 综 合 分 析 贵 州 省 大 数据 
产业 发 展 特色 鲜明 ,有 引领 示范 作用 ” 。 构 建 有 区 
域 特色 的 大 数据 产业 体现 了 各 地 区 大 数据 政策 制定 
的 差异 性 ,因此 各 地 区 应 发 挥 优势 ,大 力 发 展 有 区 域 
特色 的 大 数据 产业 。 

5.4 加 快 人 工 智能 与 实体 经 济 融合 来 推动 大 数据 产 
业 发 展 


[| 
划 》 后 ,各 地 区 政府 先后 出 台 了 一 系列 人 工 智能 相关 政 
策 文件 。2019 年 3 月 ,国务 院 总 理 李克强 在 政府 工作 
报告 中 提出 “智能 + ”的 概念 ,与 此 同时 还 强调 要 深化 
大 数据 ,人 工 智能 等 研发 应 用 “智能 + "将 正式 接 棒 
“下 联网 +”, 这 也 意味 着 我 国人 工 智能 即将 开启 和 互 
# 局 一样 的 规模 化 发 展 之 路 ,在 未 来 几 年 内 将 快速 在 
答 行 业 落地 。2020 年 2 月 习近平 在 中 央 全 面 深化 改革 
区 说 会 第 十 二 次 会 议 中 强调 要 鼓励 运用 大 数据 .人工 
二 等 技术 ,在 疫情 监测 分 析 、 防 控 救 治 资源 调配 等 
对 本 发 挥 支撑 作用 。 很 多 地 区 大 数据 政策 中 已 不 同 
程 巡 提出 人 工 智能 、 智 慧 城市 智慧 社会 ,智能 防 控 


:概念 ,如 广东 省 .重庆 市 .贵州 省 等 。 在 大 数据 产 
ED 用 进程 中 ,各 地 区 应 准确 把 握 全 球 人 工 智能 发 
感 剖 势 ,构建 基于 5C .大 数据 .超级 计算 , 传 感 网 等 新 
理 诬 新 技术 的 新 一 代 人 工 智能 创新 体系 ,加 强人 工 
适马 应 用 技术 研发 ,大 力 推动 人 工 智能 与 实体 经 济 
深 直 融合 ,培育 高 端 高 效 的 智能 经 济 , 最 终 建设 安全 
便捷 的 智能 社会 。 这 些 都 为 进一步 明确 未 来 人 工 
短 能 视 域 下 大 数据 产业 发 展 方向 贡 定 坚实 基础 。 

单 从 数据 分 析 结 果 上 看 ,部 分 地 区 的 数据 并 不 能 
反映 出 大 数据 产业 的 实际 发 展 水 平 ,这 就 要 结合 实际 
情况 进行 综合 分 析 。 笔 者 将 在 该 领域 持续 研究 ,继续 
收集 大 数据 政策 相关 解读 ,报道 .评论 等 文本 ,尝试 用 
机 器 学 习 、 深 度 学 习 等 方法 来 优化 模型 ,并 在 未 来 有 针 
对 性 的 对 大 数据 政策 双向 评价 及 人 工 智能 政策 和 大 数 
据 政策 协同 方面 做 前 脆性 研究 。 
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Absiract: | Purpose/significance | The formulation and implementation of big data policies is an important 
means for the country to promote the development of the big data industry. Therefore, research on big data policies 
has received widespread attention from the society. | Method/ process | From the perspective of text similarity, the 
article compares the Big Data Development Action Plan issued by the State Council and the texts of big data policies 
了 Teleased in 22 regions. | Result/ conclusion | Data shows :the policies formulated by Guangdong Province and Fujian 
Province are the most complete and comprehensive ;open data sharing and security guarantees the highest overall at- 
tion in the formulation of big data policies in various regions, showing similarity ;regional characteristics are more 
Gbminent, showing differences. With the successive release of artificial intelligence policies in various regions, fu- 
Ge research on big data policies under the vision of artificial intelligence will become a new direction. 
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